Econometria Aplicada à Finanças

Mestrado Profissional em Administração

Prof. Washington Santos da Silva

IFMG - Campus Formiga

3 de setembro de 2024

Hipóteses do MRLM - Amostra Aleatória/Seção-Cruzada

Hipóteses

Hipótese Interpretação
H1. \(y = \beta_0 + \beta_1x_1 + \dots + \beta_kx_k + u\) Modelo Linear nos Parâmetros
H2. \((x_{i1}, x_{i2},\ldots, x_{ik}, y_i): i = 1, 2,\ldots,n\) Amostra Aleatória de tamanho \(n\)
H3. \(rank(X) = k\) Colunas de \(X\) são linearmente independentes
H4. \(E(\epsilon_i|X_i) = 0\) erros tem média 0
H5. \(V(\epsilon_i|X_i) = \sigma^2 < \infty\) variância finita e constante
H6: \(\epsilon_i|X_i \sim N(0,\sigma^2)\) erros tem distribuição aprox. normal.

Hipóteses do MRLM - Séries Temporais

Hipóteses

Hipótese Interpretação
H1. \(y = \beta_0 + \beta_1x_1 + \dots + \beta_kx_k + u\) Modelo Linear nos Parâmetros
H2. \(rank(X) = k\) Colunas de \(X\) são linearmente independentes
H3. \(E(\epsilon_i|X_i) = 0\) erros tem média 0
H4. \(V(\epsilon_i|X_i) = \sigma^2 < \infty\) variância finita e constante
H5. \(Cov(\epsilon_i,\epsilon_j|X_i) = 0\) (\(i \neq j\)) erros não são linearmente correlacionados
H6: \(\epsilon_i|X_i \sim N(0,\sigma^2)\) erros tem distribuição aprox. normal.

Na Aula de Hoje

Tópicos

  • Diagnóstico do Modelo de Regressão Linear Múltipla - Seção-Cruzada

    • Multicolinearidade
    • Endogeneidade
    • Heterocedasticidade
  • Conteúdo baseado em Brooks (2019) e Wooldridge (2016).

H3 \(rank(X) = k\) - Ausência de Colinearidade Perfeita

H3 \(rank(X) = k\)

Descrição

  • Na amostra (e, portanto, na população), nenhuma das variáveis explicativas é constante e;

  • Não há correlações lineares exatas entre as variáveis explicativas.

  • Pode haver correlações lineares altas (multicolinearidade), mas não exatas ou perfeitas

Multicolinearidade

Descrição

Considere um modelo de regressão linear múltipla:

\[ y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon \]

Multicolinearidade ocorre quando existe uma dependência linear quase exata entre duas ou mais variáveis explicativas (\(x\)).

Formalmente, isso significa que existe um vetor não nulo \(\lambda = (\lambda_1, \lambda_2, \dots, \lambda_k)\)$ tal que:

\[ \lambda_1 X_1 + \lambda_2 X_2 + \dots + \lambda_k X_k \approx 0 \] Essa relação indica que uma variável explicativa pode ser expressa como uma combinação linear das outras:

\[ x_j = \sum_{i \neq j} \lambda_k x_j \] - Em outras palavras, cada variável explicativa na especificação não pode ser uma média ponderada das outras variáveis explicativas.

Colinearidade Exata - \(rank(X) < k\)

# modelo de regressão simulado (k = 3) com multicolinearidade exata
set.seed(42)
x1 <- runif(100)
x2 <- 2 * x1        # x2 = 2*(x1)
y <- rnorm(100)
df <- data.frame(y, x1, x2)

lm(y ~ x1 + x2, data = df)
#> 
#> Call:
#> lm(formula = y ~ x1 + x2, data = df)
#> 
#> Coefficients:
#> (Intercept)           x1           x2  
#>     -0.2538       0.4357           NA

Multicolinearidade

Álgebra Linear Numérica

  • Sabemos que os estimadores de MQO são dados por

\[ \hat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}'\mathbf{y} \]

Quando há multicolinearidade entre as colunas da matriz \(X\), isso implica que as colunas são linearmente dependentes ou quase dependentes.

Em termos de álgebra linear numérica, isso resulta nas seguintes consequências:

Determinante Próximo de Zero:

  • A matriz \(\mathbf{X}'\mathbf{X}\) torna-se quase singular, significando que seu determinante é muito próximo de zero.

Instabilidade Numérica na Inversão:

  • A consequência direta da quase singularidade é que a inversão da matriz \((\mathbf{X}^\top \mathbf{X})^{-1}\) torna-se numericamente instável. Pequenas variações nos dados podem resultar em grandes mudanças nos coeficientes estimados \(\hat{\beta}\), pois a inversão de uma matriz quase singular amplifica os erros numéricos. Esse fenômeno é conhecido como problema de “condicionamento” da matriz.

  • Embora a linguagem R utilize a Decomposição QR para obter os estimadores de MQO, e não o cálculo da inversa de \((\mathbf{X}^\top \mathbf{X})^{-1}\), o que oferece vantagens em termos da estabilidade numérica, a multicolinearidade continua a afetar negativamente a obtenção dos estimadores de MQO.

Fator de Inflação da Variância

VIF - Variance Inflation Factor

Para um modelo de regressão linear múltipla:

\[ y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_k X_{ik} + \epsilon_i \] A variância do estimador \(\hat{\beta}_j\) pode ser obtida por:

\[ \begin{aligned} V(\hat{\beta}_j) &= \hat{\sigma}^2 \times \frac{1}{\sum_{i=1}^{n} (X_{ij} - \bar{X}_j)^2 \cdot (1 - R_j^2)} \\ &= \hat{\sigma}^2 \times \frac{1}{\sum_{i=1}^{n} (X_{ij} - \bar{X}_j)^2} \times \frac{1}{(1 - R_j^2)} \end{aligned} \]

onde: - \(\hat{\sigma}^2\) é o estimador da variância do erro \(\epsilon_i\):

\[ \hat{\sigma}^2 = \frac{\sum_{i=1}^{n} \hat{\epsilon}_i^2}{n - k - 1} \]

  • \(\sum_{i=1}^{n} (X_{ij} - \bar{X}_j)^2\) é a soma dos quadrados dos desvios da variável \(X_j\) em relação à sua média \(\bar{X}_j\).

  • \(R_j^2\) é o coeficiente de determinação da regressão da variável \(X_j\) em relação a todas as outras variáveis explicativas no modelo.

  • O fator de inflação da variância (VIF) para o coeficiente (_j) é definido como:

\[ \text{VIF}(X_j) = \frac{1}{1 - R_j^2} \]

onde \(R_j^2\) é o coeficiente de determinação da regressão de \(X_j\) em relação às outras variáveis explicativas.

Podemos reescrever a variância \(V(\hat{\beta}_j)\) substituindo o \(R_j^2\) na fórmula anterior:

\[ \begin{aligned} V(\hat{\beta}_j) &= \hat{\sigma}^2 \times \frac{1}{\sum_{i=1}^{n} (X_{ij} - \bar{X}_j)^2} \times \frac{1}{(1 - R_j^2)}\\ &= \hat{\sigma}^2 \times \frac{\text{VIF}(X_j)}{\sum_{i=1}^{n} (X_{ij} - \bar{X}_j)^2} \end{aligned} \]

Isso mostra que:

  • Quanto maior a variância do erro \(V(\sigma^2)\), maior \(V(\hat{\beta})\). Mais “ruído” na equação torna mais difícil estimar o efeito parcial de qualquer uma das variáveis explicativas em \(y\), e isso se reflete em maiores variâncias para os estimadores de MQO. \(\sigma^2\) é uma característica da população, não tem nada a ver com o tamanho da amostra.

  • Quanto maior a variação total em \(x_j\), menor é \(V(\hat{\beta})\). Assim, tudo o mais constante, para estimar \(\beta_j\) preferimos ter o máximo de variação amostra em \(x_j\) possível. Embora raramente seja possível escolhermos os valores das variáveis explicativas, há uma maneira de aumentar a variação da amostra em cada uma das variáveis explicativas: aumentar o tamanho da amostra. Este é o componente da variância que depende sistematicamente do tamanho da amostra.

  • Na medida em que \(R_j^2\) aumenta (fica mais próximo de 1), \(V(\hat{\beta})\) aumenta cada vez mais. Assim, um alta grau de dependência linear entre as colunas de \(X\) pode produzir altas \(V(\hat{\beta})\).

Fator de Inflação da Variância

“Regra de Bolso” = Arbitrária

  • \(VIF_j > 10\) - Multicolinearidade é um problema.

  • \(VIF_j < 10\) - Multicolinearidade nào é um problema.

Limitações:

  • Se temos boas razões para considerar que certas variáveis explicativas precisam ser incluídas em uma regressão para inferir o impacto de de \(x_j\), então hesitamos em removê-las, e um \(VIF_j\) “muito alto” não pode realmente afetar essa decisão.

  • Definir um valor de corte para o VIF acima do qual concluímos que a multicolinearidade é um “problema” é arbitrário e não especialmente útil.

  • Às vezes, o valor 10 é escolhido: se o \(VIF_j\) estiver acima de 10 (equivalente a \(R^2_j\) acima de 0,9), então concluímos que a multicolinearidade é um “problema” para estimar \(\beta_j\).

  • Mas um (VIF_j) acima de 10 não significa que o desvio padrão de \(\hat{\)}_j$ seja grande demais para ser útil, porque o desvio padrão também depende de \(\sigma\) e \(SST_j\), e esta última pode ser aumentada. aumentando o tamanho da amostra.

  • Portanto, assim como olhar diretamente para o tamanho de \(R^2_j\), olhar para o tamanho de \(VIF_j\) é de utilidade limitada, embora alguém possa querer fazer isso por curiosidade.

Fator de Inflação da Variância em R

# pacote necessário
library(car)

# estime um modelo de regressão linear múltipla usando 
# dados internos do R
lm_mtcars <- lm(mpg ~ ., data = mtcars)

# VIF
car::vif(lm_mtcars)
#>       cyl      disp        hp      drat        wt      qsec        vs        am 
#> 15.373833 21.620241  9.832037  3.374620 15.164887  7.527958  4.965873  4.648487 
#>      gear      carb 
#>  5.357452  7.908747

Multicolinearidade

Consequências

A presença de multicolinearidade nas colunas da matriz \(\mathbf{X}\) de um modelo de regressão linear múltipla tem as seguintes consequências:

  1. Instabilidade dos Parâmetros Estimados: Os parâmetros estimados (\(\hat{\beta}\)) se tornam muito sensíveis a pequenas alterações nos dados, levando a estimativas instáveis e menos confiáveis.

  2. Alta Variância dos Estimadores: A variância (erro padrão) dos parâmetros estimados (\(\hat{\beta}\)) aumenta, reduzindo a precisão das estimativas e dificultando a identificação de quais variáveis são realmente significativas.

  3. Dificuldade na Interpretação: Devido à alta correlação entre as variáveis explicativas, torna-se difícil separar os efeitos individuais de cada variável explicativa, complicando a interpretação dos coeficientes.

  4. Problemas de Identificação: Em casos extremos, a multicolinearidade pode resultar em uma matriz \((X^\top X)\) quase singular ou singular, o que dificulta ou impossibilita calcular os coeficientes de regressão

H1. \(E(\epsilon_i|X_i) = 0\)

Especificação Incorreta

Especificação Incorreta da Forma Funcional

  • Uma forma pela qual \(H1\) pode falhar é se a relação funcional entre as variáveis explicada (\(Y\)) e explicativas (\(X\)) for especificada incorretamente na equação.

  • O problema refere-se ao erro de modelar a relação entre as variáveis de maneira inadequada, como escolher uma relação linear quando a verdadeira relação é não linear. Esse tipo de erro pode resultar em estimativas viesadas.

  • Por exemplo, se esquecermos de incluir um termo quadrático \(x^2\) quando ele deveria ser incluído.

  • Outra especificação incorreta da forma funcional ocorre quando usamos o nível de uma variável, mas o logaritmo dessa variável é o que realmente aparece no modelo populacional, ou vice-versa.

H1. \(E(\epsilon_i|X_i) = 0\) - Exogeneidade

Hipótese

  • A hipótese de que a média condicional dos erros é zero \(E(\epsilon_i|X_i) = 0\) é uma das hipóteses do modelo de regressão linear.

  • Essa hipótese é crítica porque garante que os erros não estão sistematicamente relacionados às variáveis explicativas, o que é necessário para que os estimadores de MQO sejam não viesados e consistentes.

  • \(E(\epsilon_i|X_i) = 0\) e \(Cov(\epsilon_i,x_i|X_i) = 0\) são equivalentes.

Violação: Endogeneidade: \(E(\epsilon_i|X_i) \neq 0\)

  • A Endogeneidade ocorre quando uma ou mais variáveis explicativas estão correlacionadas com o termo de erro, \(\epsilon\), violando a hipótese de exogeneidade \(E(\epsilon|X) = 0\).

  • Quando a Suposição \(E(\epsilon_i|X_i) = 0\) é satisfeita, costumamos dizer que temos variáveis explicativas exógenas.

  • Se \(x_j\) estiver correlacionada com \(u\) por qualquer motivo, então \(x_j\) é considerada uma variável explicativa endógena.

H1. \(E(\epsilon_i|X_i) \neq 0\)

Possíveis Causas de Violações

  1. Viés de Variável Omitida
  • Omitir uma variáve; importante que esteja correlacionada com qualquer uma das variáveis \(x_1, x_2,\ldots, x_k\) também faz com que H1 falhe.

  • Com a análise de regressão múltipla, somos capazes de incluir muitos fatores entre as variáveis explicativas, e as variáveis omitidas são menos propensas a serem um problema do que na análise de regressão simples.

  • No entanto, em qualquer aplicação, sempre existem fatores que, devido a limitações de dados ou ignorância, não seremos capazes de incluir.

  • Se acreditamos que esses fatores devem ser controlados e eles estão correlacionados com uma ou mais das variáveis independentes, então H1 será violada.

  1. Erros de Mensuração de Variáveis Explicativas
  • Quando as variáveis explicativas são medidas com erro, o erro de mensuração é absorvido no termo de erro o que pode fazer com que os \(\epsilon_i\) estejam correlacionados com as variáveis explicativas observadas.
  1. Simultaneidade
  • A simultaneidade ocorre quando uma ou mais das variáveis explicativas são determinadas conjuntamente com a variável dependente \(y\), como no caso de preços e quantidades que são determinados simultaneamente pela interseção das curvas de oferta e demanda.

  • Nesse cenário, \(X_i\) e \(\epsilon_i\) podem estar correlacionados, pois o valor de \(X_i\) pode ser influenciado pelo valor de \(y\), criando uma violação da hipótese \(E(\epsilon_i|X_i) = 0\) e gerando endogeneidade.

Viés de Variável Omitida

Análise

Viés de variável omitida (OVB) ocorre quando omitimos uma variável que

  1. afeta a nossa variável dependente \(y\)

  2. se correlaciona com uma variável explicativa \(x_j\)

Como o nome sugere, essa situação leva a um viés na nossa estimativa de \(\beta_j\).

Nota: OVB não é exclusivo da regressão linear múltipla, mas requer que múltiplas variáveis afetem \(y\).

Viés de Variável Omitida

Exemplo

Vamos imaginar um modelo simples para o valor que um indivíduo (i) recebe como salário:

\[ \text{Salário}_i = \beta_0 + \beta_1 \text{Escolaridade}_i + \beta_2 \text{Homem}_i + u_i \]

onde:

  • \(\text{Escolaridade}_i\) representa os anos de escolaridade do indivíduo \(i\).

  • \(\text{Homem}_i\) denota uma variável binária que identifica se o indivíduo \(i\) é do sexo masculino.

Assim,

  • \(\beta_1\): mede o retorno de um ano adicional de escolaridade (ceteris paribus)
  • \(\beta_2\): o prêmio por ser homem (ceteris paribus)
  • Se \(\beta_2 > 0\), então há evidência de discriminação contra as mulheres.

Viés de Variável Omitida

Exemplo - Continuação

A partir do nosso modelo populacional:

\[ \text{Salário}_i = \beta_0 + \beta_1 \text{Escolaridade}_i + \beta_2 \text{Homem}_i + u_i \]

Se um estudo incluir apenas a escolaridade, ou seja,

\[ \text{Salário}_i = \beta_0 + \beta_1 \text{Escolaridade}_i + (\beta_2 \text{Homem}_i + u_i) \] \[ \text{Salário}_i = \beta_0 + \beta_1 \text{Escolaridade}_i + \varepsilon_i \]

Assim, \(\varepsilon_i = \beta_2 \text{Homem}_i + u_i\).

  • Usamos a suposição de exogeneidade para derivar a ausência de viés do estimador de MQO. Mas, mesmo que \(E(u_i|X_i) = 0\), não é verdade que \(E[ \varepsilon | X ] = 0\) enquanto \(\beta_2 \neq 0\).

  • Especificamente,

\[ \begin{aligned} E[ \varepsilon | \text{Homem} = 1] &= E[\beta_2 \text{Homem}_i + u_i) | \text{Homem} = 1] \\ &= E[\beta_2 \text{Homem}_i|\text{Homem} = 1] + E[u_i|\text{Homem} = 1]\\ &= \beta_2E[\text{Homem}_i|\text{Homem} = 1] + E[u_i|\text{Homem} = 1]\\\ &= \beta_2\cdot 1 + \mathop{\boldsymbol{E}}\left[ u | \text{Homem} = 1 \right] \\ &= \beta_2 + 0 \\ &= \beta_2 \neq 0. \end{aligned} \]

  • Portanto, o estimador de MQO é viesado.

Viés de Variável Omitida

Exemplo - Continuação

  • Vamos tentar visualizar esse resultado graficamente.

O modelo populacional:

\[ \text{Salário}_i = 20 + 0.5 \times \text{Escolaridade}_i + 10 \times \text{Masculino}_i + u_i \]

Nosso modelo de regressão que sofre de viés de variável omitida:

\[ \text{Salário}_i = \hat{\beta}_0 + \hat{\beta}_1 \times \text{Escolaridade}_i + e_i \]

Finalmente, imagine que as mulheres, em média, recebem mais escolaridade do que os homens.

Viés de Variável Omitida

Examplo, continuação \(\text{Salário}_i = 20 + 0.5 \times \text{Escolaridade}_i + 10 \times \text{Homem}_i + u_i\)

A relação entre salário e escolaridade.

Viés de Variável Omitida

Examplo, continuação \(\text{Salário}_i = 20 + 0.5 \times \text{Escolaridade}_i + 10 \times \text{Homem}_i + u_i\)

Estimativa viesada da regressão: \(\widehat{\text{Salário}}_i = 31.3 -0.9 \times \text{Escolaridade}_i\)

Viés de Variável Omitida

Examplo, continuação \(\text{Salário}_i = 20 + 0.5 \times \text{Escolaridade}_i + 10 \times \text{Homem}_i + u_i\)

Lembrando a variável omitida: Gênero (Mulher e Homem)

Viés de Variável Omitida

Examplo, continuação \(\text{Salário}_i = 20 + 0.5 \times \text{Escolaridade}_i + 10 \times \text{Homem}_i + u_i\)

Estimativa não viesada da regressão: \(\widehat{\text{Salário}}_i = 20.9 + 0.4 \times \text{Escolaridade}_i + 9.1 \times \text{Homem}_i\)

Viés de Variável Omitida

Soluções

  • Não omita variáveis.

  • Variáveis instrumentais e Mínimos Quadrados em Dois Estágios.

Aviso: Existem situações em que nenhuma dessas soluções é possível.

  • Proceda com cautela (às vezes, é possível determinar o sinal do viés).

  • Talvez seja melhor parar.

Variável Instrumental

Visão Intuitiva

  • Uma variável instrumental é uma variável que é parcialmente correlacionada com a variável endógena, mas não é correlacionada com o erro.

Exemplo

  • Suponha que queremos estimar o efeito da escolaridade na renda, mas sabemos que a escolaridade é endógena, pois fatores como habilidade inata ou motivação, que não são diretamente observados (variáveis omitidas),podem influenciar tanto a escolaridade quanto o salário, causando endogeneidade.

  • Se tivermos uma variável instrumental, como a escolaridade do pai ou a distância até a escola, que é correlacionada com a escolaridade do indivíduo, mas não é correlacionada com o erro, podemos usá-la para estimar o efeito da escolaridade do indivíduo sobre sua renda.

  • A ideia é que a escolaridade do pai ou a distância até a escola, podem influenciar a quantidade de anos de estudo, mas elas não afetam diretamente o salário do indíviduo, exceto através da educação.

  • Neste exemplo, a escolaridade do pai ou a distância até a escola são usadas como VIs para isolar a parte da variação na escolaridade do indívidio que não está correlacionada com os fatores omitidos que afetam o salário, que é exógena, e que não está influenciada por f atores como motivação ou habilidade inata, que são omitidos.

Diagnóstico Gráfico

Gráfico dos Resíduos versus Valores Ajustados

  • O gráfico dos resíduos (\(\hat{u}_i\)) versus os valores ajustados (\(\hat{y}_i\)) é uma ferramenta importante para verificar a hipótese de que os erros têm média zero condicionalmente às variáveis explicativas.

  • Se os erros tiverem média zero, esperamos que os resíduos sejam distribuídos aleatoriamente em torno de zero, sem padrões discerníveis.

  • Se houver padrões nos resíduos, isso pode indicar que a hipótese de que os erros têm média zero condicionalmente às variáveis explicativas não é válida.

  • Este gráfico também pode ajudar a identificar problemas como heterocedasticidade e outliers.

Gráfico dos Resíduos versus Valores Ajustados

Em R - Dados Simulados

# modelo de regressão simulado
set.seed(42)
x <- runif(100)
y <- 2 + 3*x + rnorm(100)
df <- data.frame(y, x)

# ajuste do modelo
modelo <- lm(y ~ x, data = df)

# gráfico dos resíduos versus valores ajustados
plot(modelo, which = 1)

Em R - Dados Simulados

Em R - Dados Reais

# gráfico dos resíduos versus valores ajustados
plot(lm_mtcars, which = 1)

Em R - Dados Reais

summary(lm_mtcars)
#> 
#> Call:
#> lm(formula = mpg ~ ., data = mtcars)
#> 
#> Residuals:
#>     Min      1Q  Median      3Q     Max 
#> -3.4506 -1.6044 -0.1196  1.2193  4.6271 
#> 
#> Coefficients:
#>             Estimate Std. Error t value Pr(>|t|)  
#> (Intercept) 12.30337   18.71788   0.657   0.5181  
#> cyl         -0.11144    1.04502  -0.107   0.9161  
#> disp         0.01334    0.01786   0.747   0.4635  
#> hp          -0.02148    0.02177  -0.987   0.3350  
#> drat         0.78711    1.63537   0.481   0.6353  
#> wt          -3.71530    1.89441  -1.961   0.0633 .
#> qsec         0.82104    0.73084   1.123   0.2739  
#> vs           0.31776    2.10451   0.151   0.8814  
#> am           2.52023    2.05665   1.225   0.2340  
#> gear         0.65541    1.49326   0.439   0.6652  
#> carb        -0.19942    0.82875  -0.241   0.8122  
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 2.65 on 21 degrees of freedom
#> Multiple R-squared:  0.869,  Adjusted R-squared:  0.8066 
#> F-statistic: 13.93 on 10 and 21 DF,  p-value: 3.793e-07

Teste RESET

RESET = Regression Specification Error Test

  • O teste RESET testa a endogeneidade devida ao viés de variáveis omitidas e a um tipo de forma funcional incorreta.

Procedimento:

Suponha que tenhamos especificado e estimado o modelo:

\[ \begin{align*} y_i &= \beta_1 + \beta_2 x_{i2} + \beta_3 x_{i3} + \epsilon_i \\ \hat{y}_i &= \hat{\beta}_1 + \hat{\beta}_2 x_{i2} + \hat{\beta}_3 x_{i3} \end{align*} \]

Considere o seguinte modelo artificial:

\[ y_i = \beta_1 + \beta_2 x_{i2} + \beta_3 x_{i3} + \gamma_1 \hat{y}_i^2 + \gamma_2 \hat{y}_i^3 + \epsilon_i \]

  • Testamos \(H_0\): \(\gamma_1 = \gamma_2 = 0\) contra \(H_A\): \(\gamma_1 \neq 0\) ou \(\gamma_2 \neq 0\).

  • Note que \(\hat{y}_i^2\) e \(\hat{y}_i^3\) são funções polinomiais de \(x_{i2}\) e \(x_{i3}\),

  • Assim, se o modelo original não possui a forma funciconal correta, a aproximação polinomial que inclui \(\hat{y}_i^2\) e \(\hat{y}_i^3\) pode melhorar significativamente o ajusde do modelo, e esse fato será detecatado por valores não nulos de \(\gamma_1\) e \(\gamma_2\).

  • Além disso, se tivermos omitido variáveis, e essas variáveis forem correlacionadas com \(x_{i2}\) e \(x_{i3}\), então, alguns dos seus efeitos podem ser detectados pela inclusão dos termos \(\hat{y}_i^2\) e \(\hat{y}_i^3\).

  • Ideia geral do teste: se podemos melhorar significativamente o modelo pela inclusão artificial de potências das predições do modelo, então há evidências de que o modelo original é inadequado, seja devido a não linearidade ou a omissão de variáveis.

Regra de Decisão:

  • Valores-p maiores que 0.05 (5%) implicam que a \(H_0\) de que o modelo linear é uma especificação adequada, ou seja, a \(H_0\) não deve ser rejeitada.

  • Valores-p menores que 0.05 (5%) implicam que a \(H_0\) de que o modelo linear é uma especificação inadequada, ou seja, a \(H_0\) deve ser rejeitada.

Teste RESET em R

# pacote necessario
library(lmtest)

# adiciona potências dos valores ajustados (y^2 e y^3)
# verificar se há alguma não linearidade que não foi 
# capturada pelo modelo original. 
resettest(modelo, power = 2:3, type = "fitted")

# adiciona potências das variáveis explicativas originais ao modelo
# (x_1)^2, (x_1)^3, (x_2)^2, (x_2)^3,...
# verifica possibilidade de variáveis omitidas
resettest(modelo, power = 2:3, type = "regressor")

Teste RESET em R

library(lmtest)

# modelos simulados
x <- c(1:30)
y1 <- 1 + x + x^2 + rnorm(30)
y2 <- 1 + x + rnorm(30)
resettest(y1 ~ x, power=2, type="regressor")
#> 
#>  RESET test
#> 
#> data:  y1 ~ x
#> RESET = 158616, df1 = 1, df2 = 27, p-value < 2.2e-16
resettest(y1 ~ x + I(x^2), power=2, type="regressor")
#> 
#>  RESET test
#> 
#> data:  y1 ~ x + I(x^2)
#> RESET = 0.063901, df1 = 2, df2 = 25, p-value = 0.9383
resettest(y2 ~ x, power=2, type="regressor")
#> 
#>  RESET test
#> 
#> data:  y2 ~ x
#> RESET = 0.57536, df1 = 1, df2 = 27, p-value = 0.4547

H3 \(V(\epsilon_i|X_i) = \sigma^2 < \infty\)

Heterocedasticidade

Descrição

  • A homocedasticidade implica que a variância dos erros é constante:

\[ E[u_i^2 | X] = V(u_i | X ) = \sigma^2 \implies V(u_i) = \sigma^2 \] - A violação da homocedasticidade é conhecida como heterocedasticidade:

\[ V(u_i) = \sigma^2_i \,\, \text{e} \,\, \sigma^2_i \neq \sigma^2_j \,\,\text{para algum} \,\,i\neq j \]

  • Em outras palavras: os erros têm variâncias diferentes.

  • A heterocedasticidade está presente quando a variância de \(u\) muda com qualquer combinação das variáveis explicativas \(x_1\) até \(x_k\) (matriz: \(X\)).

  • Muito comum na prática.

Gráfico dos Resíduos versus Valores Ajustados

Heterocedasticidade

Exemlo clássico de heterocedasticidade: o funil

Heterocedasticidade

Outro exemplo de heterocedasticidade: (funil duplo?)

A variância de \(u\) aumenta nos extremos de \(x\).

Heterocedasticidade

Outro exemplo de heterocedasticidade:

Variâncias diferentes de \(u\) por grupo.

Heterocedasticidade

Consequências

  • Então, quais são as consequências da heterocedasticidade? Viés? Ineficiência?

  • Primeiro, vamos verificar se há consequências para a ausência de viés do estimador de MQO.

Lembrete1: Os estimadores de MQO serem não viesados significa que \(\mathop{\boldsymbol{E}}\left[ \hat{\beta}_k \middle| X \right] = \beta_k\) para todos os \(k\).

Lembrete2: Anteriormente mostramos que \(\hat{\beta}_1 = \dfrac{\sum_i\left(y_i-\overline{y}\right)\left(x_i-\overline{x}\right)}{\sum_i\left(x_i -\overline{x}\right)^2}\).

  • Na verdade, será útil reescrever este estimador como

\[ \hat{\beta}_1 = \beta_1 + \dfrac{\sum_i \left( x_i - \overline{x} \right) u_i}{\sum_i \left( x_i - \overline{x} \right)^2} \]

Heterocedasticidade

Prova

\[ \begin{aligned} \hat{\beta}_1 &= \dfrac{\sum_i\left(y_i-\overline{y}\right)\left(x_i-\overline{x}\right)}{\sum_i\left(x_i -\overline{x}\right)^2} \\ &= \dfrac{\sum_i\left(\left[ \beta_0 + \beta_1 x_i + u_i \right]- \left[ \beta_0 + \beta_1 \overline{x} + \overline{u} \right] \right)\left(x_i-\overline{x}\right)}{\sum_i\left(x_i -\overline{x}\right)^2} \\ &= \dfrac{\sum_i\left(\beta_1 \left[ x_i - \overline{x} \right] + \left[u_i - \overline{u}\right] \right)\left(x_i-\overline{x}\right)}{\sum_i\left(x_i -\overline{x}\right)^2} \\ &= \dfrac{\sum_i\left(\beta_1 \left[ x_i - \overline{x} \right]^2 + \left[ x_i - \overline{x} \right] \left[u_i - \overline{u}\right]\right)}{\sum_i\left(x_i -\overline{x}\right)^2} \\ &= \beta_1 + \dfrac{\sum_i\left(x_i - \overline{x}\right) \left(u_i - \overline{u}\right)}{\sum_i\left(x_i -\overline{x}\right)^2} \\ &= \beta_1 + \dfrac{\sum_i\left(x_i - \overline{x}\right) u_i - \overline{u} \sum_i\left(x_i - \overline{x}\right)}{\sum_i\left(x_i -\overline{x}\right)^2} \\ &= \beta_1 + \dfrac{\sum_i\left(x_i - \overline{x}\right) u_i - \overline{u} \left(\sum_i x_i - \sum_i \overline{x}\right)}{\sum_i\left(x_i -\overline{x}\right)^2} \\ &= \beta_1 + \dfrac{\sum_i\left(x_i - \overline{x}\right) u_i - \overline{u} \left(\sum_i x_i - n \overline{x}\right)}{\sum_i\left(x_i -\overline{x}\right)^2} \\ &= \beta_1 + \dfrac{\sum_i\left(x_i - \overline{x}\right) u_i - \overline{u} \color{#e64173}{\left(\sum_i x_i - \sum_i x_i\right)}}{\sum_i\left(x_i -\overline{x}\right)^2} \\ &= \beta_1 + \dfrac{\sum_i\left(x_i - \overline{x}\right) u_i}{\sum_i\left(x_i -\overline{x}\right)^2} \quad \text{😅} \end{aligned} \]

Heterocedasticidade

Consequências - Viés?

  • Agora queremos ver se a heterocedasticidade causa viés no estimador de MQO para \(\beta_1\).

\[ \begin{aligned} \mathop{\boldsymbol{E}}\left[ \hat{\beta}_1 \middle| X \right] &= \mathop{\boldsymbol{E}}\left[ \beta_1 + \dfrac{\sum_i\left(x_i - \overline{x}\right) u_i}{\sum_i\left(x_i -\overline{x}\right)^2} \middle| X \right] \\[0.5em] &= \beta_1 + \mathop{\boldsymbol{E}}\left[ \dfrac{\sum_i\left(x_i - \overline{x}\right) u_i}{\sum_i\left(x_i -\overline{x}\right)^2} \middle| X \right] \\[0.5em] &= \beta_1 + \dfrac{\sum_i\left(x_i - \overline{x}\right)}{\sum_i\left(x_i -\overline{x}\right)^2} \color{#e64173}{\underbrace{\mathop{\boldsymbol{E}}\left[ u_i \middle| X \right]}_{=0}} \\[0.5em] &= \beta_1 \end{aligned} \] - O estimador de MQO ainda é não viesado para \(\beta_k\).

Heterocedasticidade

Consequência - Eficiência

A eficiência e a confiabilidade da inferência sobre os estimadores de MQO não sobrevivem à heterocedasticidade:

  • Na presença de heterocedasticidade, o estimador de MQO não é mais o mais eficiente (melhor) estimador linear não viesado (BLUE)

Mínimos Quadrados Ponderados

  • Seria mais informativo (eficiente) ponderar as observações inversamente à variância dos \(u_i\).

  • Reduzir o peso dos \(u_i\) com alta variância (contém muito ruido para fornecer informações confiáveis).

  • Aumentar o peso das observações com \(u_i\) de baixa variância (mais “confiáveis”).

  • Agora temos uma ideia do método dos Mínimos Quadrados Ponderados (WLS).

Heterocedasticidade

Consequências - Inferência

Os erros padrão dos estimadores MQO são viesados na presença de heterocedasticidade.

  • Intervalos de confiança incorretos

  • Problemas para testes de hipóteses (tanto testes t quanto F)

  • É difícil aprender muito sem uma inferência sólida.

Soluções:

  • Testes para determinar se há presença de heterocedasticidade.

  • Remédios para eficiência e inferência.

Testando a Heterocedasticidade

Testes

Embora possamos ter soluções para a heterocedasticidade, a eficiência dos nossos estimadores depende da presença ou não de heterocedasticidade.

  • O teste de Goldfeld-Quandt
  • O teste de Breusch-Pagan
  • O teste de White

Cada um desses testes se baseia no fato de que podemos usar os resíduos do MQO \(\color{#e64173}{e_i}\) para estimar o erro populacional \(\color{#e64173}{u_i}\).

Teste de Goldfeld-Quandt

Descrição

  • O teste de G-Q foi um dos primeiros testes de heterocedasticidade (Goldfeld e Quandt, 1965).

  • Foca em um tipo específico de heterocedasticidade: se a variância de \(u_i\) difere entre dois grupos

Lembra-se de como usamos nossos resíduos para estimar \(\sigma^2\)?

\[ s^2 = \dfrac{\text{RSS}}{n-1} = \dfrac{\sum_i e_i^2}{n-1} \]

  • Usaremos essa mesma ideia para determinar se há evidências de que nossos dois grupos diferem nas variâncias de seus erros, comparando efetivamente \(s^2_1\) e \(s^2_2\) de nossos dois grupos.

Teste de Goldfeld-Quandt

Algoritmo

  1. Ordene as observações por \(x\)

  2. Divida os dados em dois grupos de tamanho \(n^{\ast}\)

    • \(G_1\): O primeiro terço
    • \(G_2\): O último terço
  3. Execute regressões separadas de \(y\) contra \(x\) para \(G_1\) e \(G_2\).

  4. Registre \(RSS_1\) e \(RSS_2\).

  5. Calcule a estatística do teste G-Q

Teste de Goldfeld-Quandt

Estatística do Teste

A estatística do teste de G-Q é:

\[ F_{\left(n^{\star}-k,\, n^{\star}-k\right)} = \dfrac{\text{RSS}_2/(n^\star-k)}{\text{RSS}_1/(n^\star-k)} = \dfrac{\text{RSS}_2}{\text{RSS}_1} \]

e segue uma distribuição \(F\) (sob a hipótese nula) com \(n^{\star}-k\) e \(n^{\star}-k\) graus de liberdade1.

Notas

  • O teste de G-Q requer que os erros sigam distribuições normais.
  • O teste de G-Q assume um tipo/formato muito específico de heterocedasticidade.
  • Desempenha muito bem se conhecermos a forma potencial da heterocedasticidade

Teste de Goldfeld-Quandt

\(F_{375,\,375} = \dfrac{\color{#e64173}{\text{RSS}_2 = 18,203.4}}{\color{#314f4f}{\text{RSS}_1 = 1,039.5}} \approx 17.5 \implies\) valor-p \(< 0.001\)

  • Portanto, rejeitamos \(H_0\): \(\sigma^2_1 = \sigma^2_2\) e e concluímos que há evidências estatisticamente significativas de heterocedasticidade.

Teste de Goldfeld-Quandt - O Problema

Teste de Goldfeld-Quandt - O Problema

\(F_{375,\,375} = \dfrac{\color{#e64173}{\text{RSS}_2 = 14,516.8}}{\color{#314f4f}{\text{RSS}_1 = 14,937.1}} \approx 1 \implies\) valor-p \(\approx 0.609\)

  • Portanto, falhamos em rejeitar a \(H_0\): \(\sigma^2_1 = \sigma^2_2\), embora a heterocedasticidade esteja presente.

Teste de Breusch-Pagan

Descrição

  • Breusch e Pagan (1979) tentaram resolver o problema de ser excessivamente específico quanto à forma funcional da heterocedasticidade.

Lógica do Teste:

  • Um teste que permita aos dados mostrarem se e como a variância de \(u_i\) se correlaciona com \(X\).

  • Se \(\sigma_i^2\) se correlaciona com \(X\), então temos heterocedasticidade.

  • Fazemos a regressão entre \(e_i^2\) e \(X = \left[ 1,\, x_1,\, x_2,\, \ldots,\, x_k \right]\) e testamos a significância conjunta.

Teste de Breusch-Pagan

Algoritmo

  1. Faça a regressão de \(y\) contra um intercepto, \(x_1\), \(x_2\),…, \(x_k\).

  2. Registre os resíduos (e).

  3. Faça a regressão de \(e^2\) contra um intercepto, \(x_1\), \(x_2\),…, \(x_k\).

\[ e_i^2 = \alpha_0 + \alpha_1 x_{1i} + \alpha_2 x_{2i} + \cdots + \alpha_k x_{ki} + v_i \]

  1. Registre \(R^2\).

  2. Teste a hipótese \(H_0\): \(\alpha_1 = \alpha_2 = \cdots = \alpha_k = 0\).

#| echo: false

A estatística do teste de B-P é:

\[ \text{LM} = n \times R^2_{e} \]

onde \(R^2_e\) é o \(R^2\) da regressão entre:

\[ e_i^2 = \alpha_0 + \alpha_1 x_{1i} + \alpha_2 x_{2i} + \cdots + \alpha_k x_{ki} + v_i \]

Sob a hipótese nula, \(\text{LM}\) é distribuída assimptoticamente como uma \(\chi^2_k\).

Essa estatística de teste verifica \(H_0\): \(\alpha_1 = \alpha_2 = \cdots = \alpha_k = 0\).

Rejeitar a hipótese nula implica evidências de heterocedasticidade. :::

A distribuição \(\chi^2\)

  • Acabamos de mencionar que, sob a hipótese nula, a estatística do teste de B-P é distribuída como uma variável aleatória \(\chi^2\) com \(k\) graus de liberdade.

  • A distribuição \(\chi^2\) é apenas outro exemplo de uma distribuição comum (com nome), como a distribuição Normal, a distribuição \(t\) e a distribuição \(F\).

A distribuição \(\chi^2\)

Três examplos de \(\chi_k^2\): \(\color{#314f4f}{k = 1}\), \(\color{#e64173}{k = 2}\), and \(\color{orange}{k = 9}\)

A distribuição \(\chi^2\)

Probabilidade de observar uma estatística de teste \(\widehat{\text{LM}}\) mais extrema sob \(H_0\):

Teste de Breusch-Pagan

Problema

Problema: Ainda estamos assumindo uma forma funcional bastante restritiva entre as variáveis explicativas (X) e as variâncias dos erros \(\sigma^2_i\).

Resultado: O teste B-P pode ainda deixar de detectar formas relativamente simples de heterocedasticidade.

Teste de Breusch-Pagan

Os testes de Breusch-Pagan ainda são sensíveis à forma funcional.

\[ \begin{aligned} e_i^2 &= \hat{\alpha}_0 + \hat{\alpha}_1 x_{1i} & \widehat{\text{LM}} &= 1.26 &\mathit{valor-}\text{p} \approx 0.261 \\ e_i^2 &= \hat{\alpha}_0 + \hat{\alpha}_1 x_{1i} \color{#e64173}{+ \hat{\alpha}_2 x^2_{1i}} & \widehat{\text{LM}} &= 185.8 &\mathit{valor-}\text{-p} < 0.001 \end{aligned} \]

Teste de White

Descrição

Até agora, temos testado relações específicas entre as variáveis explicativas e as variâncias dos erros, por exemplo:

  • \(H_0\): \(\sigma_1^2 = \sigma_2^2\) para dois grupos com base em \(x_j\) (G-Q)

  • \(H_0\): \(\alpha_1 = \cdots = \alpha_k = 0\) a partir de \(e_i^2 = \alpha_0 + \alpha_1 x_{1i} + \cdots + \alpha_k x_{ki} + v_i\) (B-P)

No entanto, o que realmente queremos saber é se:

\[ \sigma_1^2 = \sigma_2^2 = \cdots = \sigma_n^2 \]

  • P: Não podemos simplesmente testar essa hipótese?
  • R: Mais ou menos.

Teste de White

Descrição

Com esse objetivo, White (1980) aproveitou o fato de que podemos substituir o requisito de homocedasticidade por uma suposição mais fraca:

  • Antiga: \(V(u_i | X) = \sigma^2\)

  • Nova: \(u^2\) é não correlacionado com as variáveis explicativas (ou seja, \(x_j\) para todos os \(j\)), seus quadrados (ou seja, \(x_j^2\)) e as interações de primeira ordem (ou seja, \(x_j x_h\)).

Essa nova hipótese é mais fácil de testar explicitamente (dica: regressão).

Teste de White

Um Esboço do Teste de White

  1. Faça a regressão entre \(y\) em \(x_1\), \(x_2\),…,\(x_k\). Salve os resíduos \(e\).

  2. Faça a regressão entre os resíduos ao quadrado contra todas as variáveis explicativas, seus quadrados e interações:

\[ e^2 = \alpha_0 + \sum_{h=1}^k \alpha_h x_h + \sum_{j=1}^k \alpha_{k+j} x_j^2 + \sum_{\ell = 1}^{k-1} \sum_{m = \ell + 1}^k \alpha_{\ell,m} x_\ell x_m + v_i \]

  1. Registre \(R_e^2\).

  2. Calcule a estatística de teste para testar \(H_0\): \(\alpha_p = 0\) para todos os \(p \neq 0\).

Teste de White

Descrição

Assim como no teste de Breusch-Pagan, a estatística do teste de White é:

\[ \text{LM} = n \times R_e^2 \qquad \text{Sob H}_0,\, \text{LM} \overset{\text{d}}{\sim} \chi_k^2 \]

mas agora o \(R^2_e\) vem da regressão entre \(e^2\) e as variáveis explicativas, seus quadrados e suas interações.

\[ e^2 = \alpha_0 + \underbrace{\sum_{h=1}^k \alpha_h x_h}_{\text{Variáveis explicativas}} + \underbrace{\sum_{j=1}^k \alpha_{k+j} x_j^2}_{\text{Termos ao quadrado}} + \underbrace{\sum_{\ell = 1}^{k-1} \sum_{m = \ell + 1}^k \alpha_{\ell,m} x_\ell x_m}_{\text{Interações}} + v_i \]

Notas:

  • O \(k\) (para nosso \(\chi_k^2\)) é igual ao número de parâmetros estimados na regressão acima (os \(\alpha_j\)), excluindo o intercepto \((\alpha_0)\).

  • Se uma variável é igual ao seu quadrado (por exemplo, variáveis binárias), então não devemos (não podemos) incluí-la. A mesma regra se aplica para interações.

Teste de White

Exemplo

Considere o modelo \(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + u\).

Passo 1: Estime o modelo e obtenha os resíduos \((e)\).

Passo 2: Faça a regressão entre \(e^2\) as variáveis explicativas, seus quadrados e interações:

\[ \begin{aligned} e^2 = &\alpha_0 + \alpha_1 x_1 + \alpha_2 x_2 + \alpha_3 x_3 + \alpha_4 x_1^2 + \alpha_5 x_2^2 + \alpha_6 x_3^2 \\ &+ \alpha_7 x_1 x_2 + \alpha_8 x_1 x_3 + \alpha_9 x_2 x_3 + v \end{aligned} \]

Registre o \(R^2\) dessa equação (chame-o de \(R_e^2\)).

Passo 3: Teste \(H_0\): \(\alpha_1 = \alpha_2 = \cdots = \alpha_9 = 0\) usando \(\text{LM} = n R^2_e \overset{\text{d}}{\sim} \chi_9^2\).

Teste de White - Exemplo

Já realizamos o teste de White para esta regressão linear simples.

\[ \begin{aligned} e_i^2 &= \hat{\alpha}_0 + \hat{\alpha}_1 x_{1i} \color{#e64173}{+ \hat{\alpha}_2 x^2_{1i}} & \widehat{\text{LM}} &= 185.8 &\mathit{valor}\text{-p} < 0.001 \end{aligned} \]

Testando a Heterocedasticidade

  • arquivo ecnt2024_mpa/quarto/03_heterocedasticidade.qmd

Questões de Revisão

Perguntas

  • Q: Qual é a definição de heterocedasticidade?

  • Q: Por que estamos preocupados com a heterocedasticidade?

  • Q: Fazer o gráfico de dispersão de \(y\) contra \(x\) nos diz algo sobre a heterocedasticidade?

  • Q: Fazer o gráfico de dispersão de \(e\) contra \(x\) nos diz algo sobre a heterocedasticidade?

  • Q: Como não podemos observar os \(u_i\) (erros populacionais), o que usamos para aprender sobre a heterocedasticidade?

  • Q: Qual teste você recomenda para testar a heterocedasticidade? Por quê?

  • Q: Qual é a diferença entre \(u_i\) e \(e_i\)?

  • Q: Discutimos bastante \(u_i^2\). Por que?

  • Q: Discutimos bastante \(e_i^2\). Por que?

Referências

BREUSCH, T. S.; PAGAN, A. R. A simple test for heteroscedasticity and random coefficient variation. Econometrica, v. 47, n. 5, p. 1287–1294, 1979.
BROOKS, C. Introductory Econometrics For Finance. 4th. ed. [s.l.] Cambridge University Press, 2019.
GOLDFELD, S. M.; QUANDT, R. E. Some tests for homoscedasticity. Journal of the American Statistical Association, v. 60, n. 310, p. 539–547, 1965.
WHITE, H. A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroskedasticity. Econometrica, v. 48, n. 4, p. 817–838, 1980.
WOOLDRIDGE, J. M. Introdução à Econometria: Uma Abordagem Moderna. Traducao Flávio E. F. Marques. 5. ed. São Paulo, Brasil: Cengage Learning, 2016.